27 research outputs found

    A Bitter-Sweet Symphony on Vision and Language : Bias andWorld Knowledge

    Get PDF
    La visió i el llenguatge són àmpliament considerats com a pedres angulars de la intel·ligència. Tot i que el llenguatge i la visió tenen objectius diferents: el llenguatge té el propòsit de la comunicació, la transmissió d'informació i la visió té el propòsit de construir representacions mentals al nostre voltant per navegar i interactuar amb els objectes, interactuen i depenen els uns dels altres en moltes tasques que fem sense esforç. . Aquesta dependència està estudiant activament en diverses tasques de Computer Vision, p. subtítols d'imatges, resposta visual a preguntes, recuperació d'oracions amb imatges, posada a terra de frases, només per nomenar-ne alguns. Totes aquestes tasques comparteixen la dificultat inherent d'alinear les dues modalitats, alhora que són robustes als llenguatges previs i diversos biaixos existents als conjunts de dades. L'objectiu final de la investigació de la visió i el llenguatge és poder injectar coneixement del món mentre s'eliminen els biaixos que vénen amb els conjunts de dades. En aquesta tesi, ens centrem principalment en dues tasques de visió i llenguatge, és a dir, subtítols d'imatge i resposta visual a preguntes de text d'escena (STVQA). En tots dos dominis, comencem definint una nova tasca que requereix la utilització del coneixement mundial i en ambdues tasques trobem que els models comunament emprats són propensos als biaixos que hi ha a les dades. Concretament, presentem noves tasques i descobrim diversos problemes que impedeixen l'exercici a cada nivell i proporcionem remeis o possibles solucions a cada capítol: i) Definim una nova tasca per anar més enllà del subtitulat d'imatges a la interpretació d'imatges que pot utilitzar entitats anomenades en forma de coneixement del món. ii) Estudiem el problema de l'al·lucinació d'objectes als sistemes clàssics de subtítols d'imatges i desenvolupem una solució independent de l'arquitectura. iii) Definim una subtasca de Visual Question Answering que requereix llegir el text de la imatge (STVQA), on destaquem les limitacions dels models actuals. iv) Proposem una arquitectura per a la tasca STVQA que pot apuntar a la resposta a la imatge i mostrar com combinar-la amb els models clàssics de VQA. v) Mostrem fins on ens pot portar el llenguatge a STVQA i descobrim un altre biaix més que fa que els models ignorin la imatge mentre realitzen la Resposta Visual a Preguntes.La visión y el lenguaje son ampliamente considerados como piedras angulares de la inteligencia. Aunque el lenguaje y la visión tienen objetivos diferentes: el lenguaje tiene el propósito de la comunicación, la transmisión de información y la visión tiene el propósito de construir representaciones mentales a nuestro alrededor para navegar e interactuar con los objetos, interactúan y dependen unos de otros en muchas tareas que realizamos sin esfuerzo. . Esta dependencia se está estudiando activamente en varias tareas de Computer Vision, p. subtítulos de imágenes, respuesta visual a preguntas, recuperación de oraciones con imágenes, puesta a tierra de frases, solo por nombrar algunos. Todas estas tareas comparten la dificultad inherente de alinear las dos modalidades, al mismo tiempo que son robustas a los lenguajes previos y varios sesgos existentes en los conjuntos de datos. El objetivo final de la investigación de la visión y el lenguaje es poder inyectar conocimiento del mundo mientras se eliminan los sesgos que vienen con los conjuntos de datos. En esta tesis, nos centramos principalmente en dos tareas de visión y lenguaje, a saber, subtítulos de imagen y respuesta visual a preguntas de texto de escena (STVQA). En ambos dominios, comenzamos definiendo una nueva tarea que requiere la utilización del conocimiento mundial y en ambas tareas encontramos que los modelos comúnmente empleados son propensos a los sesgos que existen en los datos. Concretamente, presentamos nuevas tareas y descubrimos varios problemas que impiden el desempeño en cada nivel y proporcionamos remedios o posibles soluciones en cada capítulo: i) Definimos una nueva tarea para ir más allá del subtitulado de imágenes a la interpretación de imágenes que puede utilizar entidades nombradas en forma de conocimiento del mundo. ii) Estudiamos el problema de la alucinación de objetos en los sistemas clásicos de subtítulos de imágenes y desarrollamos una solución independiente de la arquitectura. iii) Definimos una subtarea de Visual Question Answering que requiere leer el texto de la imagen (STVQA), donde destacamos las limitaciones de los modelos actuales. iv) Proponemos una arquitectura para la tarea STVQA que puede apuntar a la respuesta en la imagen y mostrar cómo combinarla con los modelos clásicos de VQA. v) Mostramos hasta dónde nos puede llevar el lenguaje en STVQA y descubrimos otro sesgo más que hace que los modelos ignoren la imagen mientras realizan la Respuesta Visual a Preguntas.Vision and Language are broadly regarded as cornerstones of intelligence. Even though language and vision have different aims -language having the purpose of communication, transmission of information and vision having the purpose of constructing mental representations around us to navigate and interact with objects -they cooperate and depend on one another in many tasks we perform effortlessly. This reliance is actively being studied in various Computer Vision tasks, e.g. image captioning, visual question answering, image-sentence retrieval, phrase grounding, just to name a few. All of these tasks share the inherent difficulty of the aligning the two modalities, while being robust to language priors and various biases existing in the datasets. One of the ultimate goal for vision and language research is to be able to inject world knowledge while getting rid of the biases that come with the datasets. In this thesis, we mainly focus on two vision and language tasks, namely Image Captioning and Scene-Text Visual Question Answering (STVQA). In both domains, we start by defining a new task that requires the utilization of world knowledge and in both tasks, we find that the models commonly employed are prone to biases that exist in the data. Concretely, we introduce new tasks and discover several problems that impede performance at each level and provide remedies or possible solutions in each chapter: i) We define a new task to move beyond Image Captioning to Image Interpretation that can utilize Named Entities in the form of world knowledge. ii) We study the object hallucination problem in classic Image Captioning systems and develop an architecture-agnostic solution. iii) We define a sub-task of Visual Question Answering that requires reading the text in the image (STVQA), where we highlight the limitations of current models. iv) We propose an architecture for the STVQA task that can point to the answer in the image and show how to combine it with classic VQA models. v) We show how far language can get us in STVQA and discover yet another bias which causes the models to disregard the image while doing Visual Question Answering

    A Bitter-Sweet Symphony on Vision and Language: Bias andWorld Knowledge

    Get PDF
    La visió i el llenguatge són àmpliament considerats com a pedres angulars de la intel·ligència. Tot i que el llenguatge i la visió tenen objectius diferents: el llenguatge té el propòsit de la comunicació, la transmissió d’informació i la visió té el propòsit de construir representacions mentals al nostre voltant per navegar i interactuar amb els objectes, interactuen i depenen els uns dels altres en moltes tasques que fem sense esforç. . Aquesta dependència està estudiant activament en diverses tasques de Computer Vision, p. subtítols d’imatges, resposta visual a preguntes, recuperació d’oracions amb imatges, posada a terra de frases, només per nomenar-ne alguns. Totes aquestes tasques comparteixen la dificultat inherent d’alinear les dues modalitats, alhora que són robustes als llenguatges previs i diversos biaixos existents als conjunts de dades. L’objectiu final de la investigació de la visió i el llenguatge és poder injectar coneixement del món mentre s’eliminen els biaixos que vénen amb els conjunts de dades. En aquesta tesi, ens centrem principalment en dues tasques de visió i llenguatge, és a dir, subtítols d’imatge i resposta visual a preguntes de text d’escena (STVQA). En tots dos dominis, comencem definint una nova tasca que requereix la utilització del coneixement mundial i en ambdues tasques trobem que els models comunament emprats són propensos als biaixos que hi ha a les dades. Concretament, presentem noves tasques i descobrim diversos problemes que impedeixen l’exercici a cada nivell i proporcionem remeis o possibles solucions a cada capítol: i) Definim una nova tasca per anar més enllà del subtitulat d’imatges a la interpretació d’imatges que pot utilitzar entitats anomenades en forma de coneixement del món. ii) Estudiem el problema de l’al·lucinació d’objectes als sistemes clàssics de subtítols d’imatges i desenvolupem una solució independent de l’arquitectura. iii) Definim una subtasca de Visual Question Answering que requereix llegir el text de la imatge (STVQA), on destaquem les limitacions dels models actuals. iv) Proposem una arquitectura per a la tasca STVQA que pot apuntar a la resposta a la imatge i mostrar com combinar-la amb els models clàssics de VQA. v) Mostrem fins on ens pot portar el llenguatge a STVQA i descobrim un altre biaix més que fa que els models ignorin la imatge mentre realitzen la Resposta Visual a Preguntes.La visión y el lenguaje son ampliamente considerados como piedras angulares de la inteligencia. Aunque el lenguaje y la visión tienen objetivos diferentes: el lenguaje tiene el propósito de la comunicación, la transmisión de información y la visión tiene el propósito de construir representaciones mentales a nuestro alrededor para navegar e interactuar con los objetos, interactúan y dependen unos de otros en muchas tareas que realizamos sin esfuerzo. . Esta dependencia se está estudiando activamente en varias tareas de Computer Vision, p. subtítulos de imágenes, respuesta visual a preguntas, recuperación de oraciones con imágenes, puesta a tierra de frases, solo por nombrar algunos. Todas estas tareas comparten la dificultad inherente de alinear las dos modalidades, al mismo tiempo que son robustas a los lenguajes previos y varios sesgos existentes en los conjuntos de datos. El objetivo final de la investigación de la visión y el lenguaje es poder inyectar conocimiento del mundo mientras se eliminan los sesgos que vienen con los conjuntos de datos. En esta tesis, nos centramos principalmente en dos tareas de visión y lenguaje, a saber, subtítulos de imagen y respuesta visual a preguntas de texto de escena (STVQA). En ambos dominios, comenzamos definiendo una nueva tarea que requiere la utilización del conocimiento mundial y en ambas tareas encontramos que los modelos comúnmente empleados son propensos a los sesgos que existen en los datos. Concretamente, presentamos nuevas tareas y descubrimos varios problemas que impiden el desempeño en cada nivel y proporcionamos remedios o posibles soluciones en cada capítulo: i) Definimos una nueva tarea para ir más allá del subtitulado de imágenes a la interpretación de imágenes que puede utilizar entidades nombradas en forma de conocimiento del mundo. ii) Estudiamos el problema de la alucinación de objetos en los sistemas clásicos de subtítulos de imágenes y desarrollamos una solución independiente de la arquitectura. iii) Definimos una subtarea de Visual Question Answering que requiere leer el texto de la imagen (STVQA), donde destacamos las limitaciones de los modelos actuales. iv) Proponemos una arquitectura para la tarea STVQA que puede apuntar a la respuesta en la imagen y mostrar cómo combinarla con los modelos clásicos de VQA. v) Mostramos hasta dónde nos puede llevar el lenguaje en STVQA y descubrimos otro sesgo más que hace que los modelos ignoren la imagen mientras realizan la Respuesta Visual a Preguntas.Vision and Language are broadly regarded as cornerstones of intelligence. Even though language and vision have different aims –language having the purpose of communication, transmission of information and vision having the purpose of constructing mental representations around us to navigate and interact with objects –they cooperate and depend on one another in many tasks we perform effortlessly. This reliance is actively being studied in various Computer Vision tasks, e.g. image captioning, visual question answering, image-sentence retrieval, phrase grounding, just to name a few. All of these tasks share the inherent difficulty of the aligning the two modalities, while being robust to language priors and various biases existing in the datasets. One of the ultimate goal for vision and language research is to be able to inject world knowledge while getting rid of the biases that come with the datasets. In this thesis, we mainly focus on two vision and language tasks, namely Image Captioning and Scene-Text Visual Question Answering (STVQA). In both domains, we start by defining a new task that requires the utilization of world knowledge and in both tasks, we find that the models commonly employed are prone to biases that exist in the data. Concretely, we introduce new tasks and discover several problems that impede performance at each level and provide remedies or possible solutions in each chapter: i) We define a new task to move beyond Image Captioning to Image Interpretation that can utilize Named Entities in the form of world knowledge. ii) We study the object hallucination problem in classic Image Captioning systems and develop an architecture-agnostic solution. iii) We define a sub-task of Visual Question Answering that requires reading the text in the image (STVQA), where we highlight the limitations of current models. iv) We propose an architecture for the STVQA task that can point to the answer in the image and show how to combine it with classic VQA models. v) We show how far language can get us in STVQA and discover yet another bias which causes the models to disregard the image while doing Visual Question Answering.Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtic

    Morality according to me: lay conceptions of morality in Turkish culture

    No full text
    Shweder ve diğerleri (1997), Kohlberg’in (1971) ahlakın evrenselliği ve en önemli erdemin adalet olduğu varsayımlarını reddetmişler ve farklı kültürlerde farklı derecelerde önemsenen “ahlakın üç temel etiği”ni önererek kültürel çeşitliliği varsaymışlardır. Walker ve Pitts (1998) ise, bugünkü ahlak araştırmalarının bir eksiğinin sıradan insanın doğal ahlak kavramsallaştırmalarının çalışılmaması olduğunu ifade etmektedirler. Bu araştırmanın amacı, toplumumuzda ahlakın nasıl kavramsallaştırıldığına ve bu kavramsallaştırmaların Shweder’in üç etik koduyla nasıl ilişkilendiğine bakmaktır. Bu araştırma üç aşamadan oluşmaktadır. Çalışma 1 kapsamında katılımcılardan açık uçlu olarak ahlak/ahlaksızlık/ahlaklı insan-erkek-kadın/ahlaksız insan-erkek-kadını tanımlamaları istenmiştir. Kodlanan cevaplar, tanımlanan bu altı hedef arasında bazı ortaklıklara ve farklılıklara işaret etmektedir. En fazla atıfta bulunan kategori, toplumsal kurallar ve roller olmuştur. Çalışma 2 için, Çalışma 1’den elde edilen kategorilerden “Bana Göre Ahlak Envanteri” (BGA) oluşturulmuştur. BGA’ya verilen cevapların oluşturduğu örüntüler, Shweder ve diğerlerinin öne sürdüğü üç etik koduyla benzerlikler göstermiştir. Bu paralellikleri incelemek üzere Çalışma 3 çerçevesinde, üç etik kodunu ölçmeye yönelik olan Etik Dünya Görüşü anketi ile BGA Envanteri arasındaki ilişki tanımlayıcı ve doğrulayıcı faktör analizleri de kullanarak incelenmiştir. Sonuçlar, ülkemizde ahlakın kavramsallaştrılmasında Shweder’in üç etik koduna benzer bir yapı ortaya çıktığını ve oluşturduğumuz BGA Envanterinin güvenilir ve geçerli bir ölçüm yöntemi olduğunu göstermektedir.Shweder et al. (1997) rejected Kohlberg’s (1971) claims that morality is universal and that the most important virtue is justice, and based on their research in India, they argued for cultural diversity in morality by suggesting three “ethics” of morality which may receive different emphasis in different cultures. Walker and Pitts (1998) also criticized the lack of research on laypeople’s moral understanding. The purpose of the present research is first, to investigate how laypeople in Turkey conceptualize morality; and second, to determine whether their conceptualizations are related to Shweder’s three ethics. The present research comprised three stages. In Study 1, participants completed open-ended sentences with definitions of morality/immorality/moral person-man-woman/immoral person-man-woman. Classification of the answers revealed both commonalities and differences across the six targets. The most frequently mentioned category of answers referred to social norms and roles. In Study 2, the categories derived from Study 1 were used to develop the “Morality According to Me Inventory” (BGA). The pattern of responses to the BGA inventory showed similarities to the “three ethics” suggested by Shweder and colleagues. To further investigate these parallels, in Study 3, responses to the BGA inventory were compared with responses to the Ethical Values Assessment (EVA), designed to measure Shweder’s three ethics, using exploratory and confirmatory factor analyses. Results revealed that conceptualization of morality in a Turkish sample showed a structure similar to that suggested by Shweder, and showed that the BGA inventory is a reliable and valid instrument for assessing conceptions of morality.Publisher's Versio
    corecore